眼动结合机器学习研究：感知神经网络的活动是人类主观时间知觉的基础

Original 杨晓飞思影科技 2022-04-16

请点击上面“思影科技”四个字，选择关注我们，思影科技专业于脑影像处理，涵盖（fMRI,结构像,DTI,ASL,EEG/ERP,MEG,FNIRS,眼动）等，希望专业的内容可以给关注者带来帮助，欢迎留言讨论，也欢迎参加思影科技的其他课程。(文末点击即可浏览）

摘要：尽管时间知觉是意识的一个基本维度，但人们对于大脑是如何产生时间知觉这一现象的却仍然知之甚少。在该研究中，研究者基于非时程的感知分类加工对人类的时间知觉是如何实现的这一问题提供了一个全新的解释视角。为了阐释这一理论，研究人员基于前馈图像分类网络构建人造神经网络，其功能类似于人类视觉加工过程。在这一系统当中，输入信息为包含自然场景的视频，其使得神经网络的活动发生改变，活动不断发生显著改变的信息会不断累积，后续且被用于估计刺激时间的呈现长度。该系统对时间的估计长度与人类被试看这些视频内容所报告的时间长度基本一致，且其验证了一些关键特征，例如在忙碌城市中行走的场景与坐在咖啡厅和办公室之间对时间估计的差异。这一研究提供了一个知觉时间长度的工作模型，并为检验人类意识这一核心因素提供了新的方向。该研究发表在NATURE COMMUNICATIONS杂志。

关键字：感知神经网络；主观时间知觉；眼动

前言：

近几十年来，主流理论模型基本都假定人类的时间知觉过程基于能持续追踪物理时间的神经加工过程：节奏器，其类似于电脑的系统时钟。但由于这种节奏器在心理时间尺度上的神经基础难以探讨，作为一种替代理论，即网络状态依赖模型被提出，该理论认为人类的时间知觉是通过特定网络的动态活动来实现的。然而，网络状态依赖模型或许只适合较短时间尺度的神经加工，对于其是否可以将长时间尺度（例如时间间隔大于1秒）与心理时间结合起来，仍有待探讨。

大量研究表明，人类对时间知觉的长短受到知觉刺激材料特征的影响，例如材料的复杂度以及变化速度。此外，在对时间进行估计时，还会受到注意力的调控。然而，到目前为止尚无研究直接证明网络状态依赖模型是否能有效解决知觉材料内容与注意力对主观时间知觉的影响。

研究表明，深度卷积图像分类网络无论在功能还是结构都非常类似人类视觉加工的层级结构。考虑到输入该网络的矩阵是基于知觉加工过程，该研究假设深度卷积图像分类网络针对刺激输出的时间估计长度和人类所报告的时间估计长度会表现出类似的内容偏向特性。

方法：

被试及材料：

共招募55名大学生被试，平均年龄为22.5岁，其中40人为女性。每名被试需要在约1个小时内对80个实验试次进行反应。采用Eyelink 1000 Plus 主要采集被试的注视点数据，采样率为1000HZ。被试距离屏幕的距离为57cm，并用支架对头部进行支撑，见图1.a。

图1 实验设备与程序

共4290个实验刺激是从3个不同地点拍摄的3种主要场景视频当中随机剪切出来的，如图1.d所示，左上方是在城市中漫步，右上方是在办公室，左下方是在咖啡厅，右下方是在乡村漫步，中间是在落满树叶的校园。视频的持续时间包括13种类型（1，1.5，2，3，4，6，8，12，16，24，32，48，64s），其中每种类型重复呈现330次。最后共有4251个试次被纳入分析。对于全景数据（Full frame），图像大小为720*720像素，对于注视点数据（Gaze），选择注视点所在位置区域，图像大小为400*400像素。被试共完成4个block，每个block 20个试次，每个block约需要12 分钟。看完刺激材料后，被试需要估计材料刺激的持续时间，具体操作流程如图1.c 所示。在观看材料刺激的过程中，被试被明确告知禁止采用任何策略来估计材料刺激持续时间。

计算模型结构：计算模型由4部分构成：

（1）图像分类深度神经网络，

（2）阈限机制，

（3）一系列累积器，

（4）一个回归预测器。

视频材料输入会使网络活动发生显著变化，这些变化会不断累积，随后被转变为标准单位时间便于与人类被试的报告结果进行比较。该时间估计模型如图2 所示。左下方显示的是两个在时间上连续的两个全景输入。相连的彩色节点描述了神经网络中每一层的网络结构及其对输入刺激的激活模式。L₂表示神经网络中特定某一层相邻两种状态的欧式距离。如果活动类似，那么欧式距离就比较小，反之，如果是处于不同的状态，那么欧式距离则会变大。其中分类网络中不同神经元响应不同复杂程度的刺激，高级层主要负责处理客体这一层面的原型信息，而低级层则主要负责处理特征信息，例如边或轮廓。在变化探测阶段，将网络中特定层的L₂值与一个动态阈值进行比较。当L₂大于这一阈值时，就视为存在一个显著的知觉改变，意味着出现了一个单位的主观时间，这些改变的信息不断累积，随后被用于估计知觉到的时间长度。为了与人类报告的估计时间进行比较，最后采用基于回归的支持向量机将模型估计出来的抽象时间转化为单位时间秒（s）。

图2 时间估计模型简介

结果：

基于感知网络得到的与人类报告类似的时间估计结果

如图3a所示，人类被试在对材料刺激进行时间估计时，会表现出一种典型模式，即高估持续时间较短的材料刺激所呈现的时间，低估持续时间较长的材料刺激所呈现的时间。当给分类网络模型输入的刺激为全景材料刺激时，模型估计的精度要低于人类的估计水平，如图3b 所示。

图3 人类被试与模型对刺激持续时间的估计，以及估计结果受到场景类型的调控

借助人类被试注视点位置信息能提升模型表现

当输入刺激来源于人类被试注意的区域时（基于人类眼动数据），“注视”模型的估计结果与人类被试对刺激持续时间的估计基本一致，如图3c所示。但将某一刺激注视点的区域作为其它刺激输入的注意位置时，例如将第一个刺激的空间注视位置当作第二个刺激的注视位置，网络分类模型的表现则会变差，如图3d 所示。这说明“注视”模型能使得网络的表现更好不能归因于输入刺激大小的不同，而是更可能说明了人类注意的位置会影响时间知觉，模型对3种不同场景刺激的时间估计与人类被试报告的一致性情况具体如图3e,f 所示。图i表示分类网络中针对不同类型的场景信息，不同层中发生显著知觉改变的信息会随着时间的变化而不断累积。

模型与人类被试的时间知觉长度因知觉内容不同而存在差异

如图3g所示，与之前的假设一致，与总体平均的估计时间相比，人类被试对城市场景刺激的持续时长会高估约6%。然而对于静态的场景，如对乡村和咖啡厅场景刺激的持续时长会低估约4%。和人类被试报告结果类似，模型与总体平均的估计时间相比，其对城市场景刺激的持续时长会高估约24%。然而对于静态的场景，如对乡村（约4%）和办公室/咖啡厅（7%）场景刺激的持续时长则会出现低估，具体如图3h 所示。总体而言，分类模型对不同场景刺激的时间估计偏差模式与人类被试一致，即城市场景>校园\户外>咖啡厅\办公室。

注意力对时间知觉的影响

由图4可知，对于“注意”模型，在不同的注意调控下，模型对材料刺激的时长会呈现出不同的估计能力。当低于平均注意水平时，模型会低估刺激的呈现时长（如浅色线条所示），当高于注意水平时，模型会高估刺激的呈现时长（如深色线条所示）。

图4 分类模型在不同注意调控下的时间估计能力

总结：

本文用视频刺激作为输入内容，卷积网络会用一个阈值，如果判断材料刺激超过了阈值，就记一次，不断累积，这些累积后的信息最后用支持向量机来将其转化成秒为单位的数值，比如刺激是6秒，将其与人类的判断时间进行比较。至于眼动主要是想探讨，当人类的注射点，也就是是注意的区域信息作为神经网络的输入刺激时，就是限定于注意的区域，神经网络对该部分的刺激的呈现时间预测是否会更准确。也就是探讨对物体的注意，是否会影响对该刺激呈现时间的感知。

以往时间知觉理论主要借助“节奏器”来解释人类的时间知觉功能。而本研究则基于深度卷积图像分类网络与人类视觉加工在结构与功能在高度相似性，以不同场景类型的刺激为输入信息，并同时考察到了注意这一因素对主观时间知觉的影响。结果发现深度卷积图像分类网络能够很好模拟人类的主观时间知觉过程，这种基于深度卷积网络模型的方法为检验主观时间知觉——人类意识中这一核心因素提供了全新的方向。

原文：